Resenha crítica

Imagine que você grava um vídeo curto na sala de casa... dez segundos, nada mais. E então abre um aplicativo, digita uma frase e, em poucos instantes, a sala virou um deserto ao entardecer, sua camisa virou um uniforme militar, e você, na tela, faz um gesto que nunca fez na vida real. Ninguém abriu um software de edição. Ninguém aprendeu a usar uma timeline. Ninguém pagou por um curso de pós-produção. Foi só... uma conversa com a inteligência artificial.

Essa cena, que parecia ficção há doze meses, virou produto comercial nesta terça-feira, dezenove de maio de dois mil e vinte e seis. O Google apresentou em Mountain View, na Califórnia, durante o Google I/O, o Gemini Omni... uma nova família de modelos de inteligência artificial capaz de gerar e editar vídeos a partir de comandos em linguagem natural. O primeiro integrante a ser liberado se chama Gemini Omni Flash, e começa a chegar hoje aos assinantes dos planos Google AI Plus, Pro e Ultra, no aplicativo do Gemini e na plataforma Google Flow. No YouTube Shorts e no YouTube Create, o acesso será gratuito ainda nesta semana.

Demis Hassabis, presidente da DeepMind, subiu ao palco com uma promessa filosófica antes de ser técnica. O objetivo do projeto Omni, disse ele... é gerar qualquer tipo de saída a partir de qualquer tipo de entrada. Texto vira vídeo. Foto vira animação. Áudio vira personagem. Vídeo vira outro vídeo. Tudo no mesmo modelo, conversando com tudo, sem fronteiras entre as mídias.

O Google já tinha um gerador de vídeo, o Veo, lançado no ano passado. Mas Koray Kavukcuoglu, diretor de tecnologia do Google DeepMind, fez questão de explicar a diferença ao g1. O Veo, segundo ele, trabalha no modelo tradicional de texto para vídeo... você escreve, ele renderiza. O Omni é multimodal nativo. Foi construído desde o início sobre a arquitetura do Gemini, o que significa que ele entende contexto, raciocina sobre o que viu antes e mantém consistência entre cenas. Você pode pedir para trocar o figurino de um personagem mantendo o rosto, mudar o ângulo da câmera sem perder a iluminação, transformar uma cena de dia em noite sem que o cachorro do fundo desapareça no caminho. Em uma demonstração mostrada à imprensa, o modelo gerou um vídeo em stop motion explicando o dobramento de proteínas, com narração coerente e movimento físico crível.

Até aí, é mais um capítulo da corrida das gigantes. Mas o Omni traz uma função que abre uma porta diferente. Ele permite que o usuário crie um avatar digital com a própria voz e o próprio rosto. Para ativar o recurso, é preciso passar por um cadastro... gravar-se diante da câmera, falar uma sequência de números, autenticar a própria face e a própria voz. Depois disso, o avatar fica salvo. Você pode aparecer em vídeos sem nunca mais entrar em frente à câmera. Pode falar idiomas que nunca falou. Pode estar em cenários onde nunca esteve. Tudo com aparência e voz indistinguíveis das suas.

A própria empresa reconhece o peso da função. No comunicado oficial, o Google afirmou que está comprometido em desenvolver inteligência artificial de forma responsável e que tem políticas claras para proteger os usuários de danos. Por isso mesmo, decidiu manter desativada, por ora, a capacidade de editar o áudio e a fala de vídeos já existentes. A empresa diz que está testando essa parte e estudando como liberá-la com responsabilidade. Em outras palavras... a engrenagem que permite pegar um vídeo real, trocar a frase de quem fala e devolver o material como se nada tivesse acontecido... existe. Só não foi ligada.

E há um mecanismo de segurança vendido como o principal antídoto. Todo vídeo gerado pelo Omni carrega o SynthID, uma marca-d'água digital invisível ao olho humano, mas detectável por máquinas, que indica origem em inteligência artificial. O Google promete que a verificação poderá ser feita no próprio aplicativo do Gemini, no Chrome e na Busca. O problema é que essa promessa já encontrou seus limites. Em abril deste ano, um desenvolvedor publicou no GitHub uma ferramenta gratuita, de código aberto, capaz de contornar parcialmente o SynthID em imagens geradas pelo Gemini. A ferramenta não apaga a marca... apenas confunde o decodificador do próprio Google a ponto de ele não reconhecer mais o sinal. Em poucas semanas, o projeto recebeu mais de mil e seiscentas estrelas na plataforma. A marca-d'água continua sendo uma camada útil de defesa. Mas deixou de ser uma muralha.

Há um lado luminoso, claro. Para criadores independentes, anunciantes, pequenos cineastas, professores e jornalistas em redações enxutas, o Omni encurta absurdamente o caminho entre uma ideia e um vídeo apresentável. A diretora de produto do DeepMind, Nicole Brichtova, lembrou aos repórteres que o limite atual de dez segundos por geração não é uma fronteira técnica, mas uma decisão de produto... a maior parte dos usuários, segundo ela, ainda não está pedindo vídeos longos. Anunciantes ganham capacidade de gerar peças com texto integrado dentro da cena, algo que sempre foi um calcanhar de Aquiles dos modelos anteriores. Educadores ganham um estúdio multimodal de bolso. Empresas pequenas ganham produção audiovisual sem orçamento de produção audiovisual.

Há também o lado sombrio... que ninguém precisa de muita imaginação para visualizar. Avatares vocais convincentes em ano de eleição. Golpes telefônicos com a voz e o rosto de um familiar real. Pornografia não consensual produzida em segundos. Provas judiciais contestáveis. Vídeos de figuras públicas dizendo o que nunca disseram, circulando antes que qualquer verificação alcance. O Omni não inventa nenhum desses problemas. Mas reduz a distância entre intenção e execução a uma frase digitada.

Para entender onde o Google está se posicionando, vale lembrar o terreno. A OpenAI encerrou o aplicativo Sora em março, deixando uma lacuna no consumo de massa de vídeo gerado por inteligência artificial. A mesma OpenAI lançou no mês passado o Images dois ponto zero dentro do ChatGPT, ampliando a edição conversacional para imagens. Adobe Firefly avança no nicho profissional. A startup Luma AI promete campanhas publicitárias inteiras a partir de um briefing curto. A consultoria Statista projeta o mercado global de ferramentas de vídeo por inteligência artificial em mais de doze bilhões de dólares até dois mil e vinte e sete. O Google entra agora com uma vantagem estrutural difícil de igualar... a distribuição. YouTube, Android, Chrome, Busca, Workspace. Bilhões de pessoas, a um botão de distância da ferramenta. O Omni Pro, versão mais avançada, foi anunciado sem data. E a interface para desenvolvedores deve abrir em poucas semanas.

O que fazer com essa informação.

Primeiro... incorpore à sua rotina a ideia de que vídeo deixou de ser, sozinho, prova de coisa alguma. Trate clipes virais de figuras públicas como suspeitos por padrão, até que cheguem por canal oficial ou sejam confirmados por veículos sérios. Segundo... se você produz conteúdo, vale conhecer o Omni Flash desta semana mesmo. Não para abandonar o que você faz hoje... mas para mapear, com calma, onde a ferramenta encurta o seu fluxo e onde ela ainda não substitui o olhar humano. Terceiro... pense duas vezes antes de oferecer voz e rosto para qualquer avatar digital. O cadastro é simples. A reversão, não é. E quarto... aprenda a verificar o SynthID no Gemini, no Chrome ou na Busca. A camada não é perfeita, mas existir é melhor que não existir.

O vídeo, que durante mais de um século foi a forma mais confiável de testemunho que a humanidade já produziu, está atravessando o seu próprio dezenove de maio. Não é o fim da imagem em movimento. É o início de uma nova relação com ela... uma em que ver continua sendo importante. Só que crer... vai exigir um pouco mais de trabalho.

Quem escreveu o livro?

Agora o 12min também produz conteúdos próprios. 12min Originals é a ferram... (Leia mais)

Aprenda mais com o 12min

6 Milhões

De usuários já transformaram sua forma de se desenvolver

4,8 Estrelas

Média de avaliações na AppStore e no Google Play

91%

Dos usuários do 12min melhoraram seu hábito de leitura

Hoje

Comece a aproveitar toda a biblioteca que o 12min tem a oferecer.

Dia 5

Não se preocupe, enviaremos um lembrete avisando que sua trial está finalizando.

Dia 7

O período de testes acaba aqui.

Aproveite o acesso ilimitado por 7 dias. Use nosso app e continue investindo em você mesmo por menos de R$14,92 por mês, ou apenas cancele antes do fim dos 7 dias e você não será cobrado.

Inicie seu teste gratuito